메뉴

#고성능 컴퓨팅

HN
Hacker News 2일 전
IMP 9

일반 GPU에서 3k tokens/s 달성한 실시간 LLM 추론 기술

전체 소프트웨어 스택(아키텍처, 엔진, 커널)을 공동 설계(Co-design)하여 일반 데이터센터 GPU에서도 전용 추론 하드웨어 수준의 초고속 LLM 디코딩 속도(초당 3,000토큰)를 달성할 수 있음을 증명한 기술 프리뷰입니다. AI 에이전트의 작업 방식이 순차적이고 반복적이기 때문에 기존의 '총 처리량'보다 '단일 요청 디코딩 속도'가 핵심 성능 지표로 부상했으며, 이를 통해 에이전트의 작업 완료 시간을 기존 8분에서 20초 미만으로 획기적으로 단축할 수 있습니다.

[object Object] [object Object] [object Object]
MR
MIT Tech Review 29일 전
IMP 7

AI 확장과 데이터 주권의 실현

기업과 정부가 자체 데이터를 통제하며 맞춤형 AI를 구축하는 것이 필수적인 전략으로 자리 잡고 있습니다. 이 과정에서 데이터 주권을 유지하면서도 고품질 데이터를 안전하게 공급하는 'AI 팩토리'가 핵심적인 역할을 수행하게 될 것입니다.

데이터 주권 AI 팩토리 HPE